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摘要 : [目的 /意义 ] 软件 开源 是 社会 化 软件 生产 中 一 种 重要 的 生产 组 织 方式 和 协同 创新 运动 。 通过 对 国内 外 软 
件 开 源 相 关 研 究 的 主题 识别 及 演化 分 析 , 探究 软件 开源 研究 领域 的 阶段 性 热点 和 趋势 变化 规律 , 为 以 促进 中 国 
软件 开源 创新 进一步 优化 发 展 为 主旨 的 学 者 开展 研究 梳理 方向 。[ 方 法/ 过程 ] 以 从 Web of Science 数据 库 检索 
到 的 2001 年 至 2023 年 5 月 10 日 期 间 的 软件 开源 领域 文献 作为 语料库 ， 采 用 困惑 度 指标 确定 主题 数目 ， 训 练 
LDA 主题 识别 模型 得 到 主题 - 词 分 布 和 文档 -主题 分 布 ， 根 据 主题 - 词 分 布 对 主题 进行 标识 ， 依 据 文档 -主题 分 


在 六 个 重要 主题 ， 分 别 是 贡献 动机 、 商 业 模式 、 开 源 治 理 、 协 作 模式 、 开 源 协议 、 企 业 参 与 ， 从 主题 演化 角度 
上 看 ,软件 开源 在 商业 模式 、 开 源 治理 和 企业 参与 主题 上 近年 来 具有 相对 较 高 的 研究 热度 ,开源 协议 的 研究 趋 
势 相 对 稳定 , 贡献 动机 和 协作 模式 的 研究 热度 虽然 呈 相 对 下 降 趋 势 , 但 自始至终 一 直 保持 较 高 的 受 关注 度 。 软 
件 开源 研究 呈现 由 关注 开源 动机 自发 、 自 治 的 个 人 维度 到 企业 、 政 府 参与 的 组 织 维度 的 发 展 规律 。 建 议 学 者 们 
关注 中 国情 景 下 开源 生态 各 类 主题 研究 ， 为 我 国 开源 生态 健康 发 展 提供 理论 文 持 。 
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分 类 号 ;G353.1 


1 引言 
近年 来 ， 软 件 开源 作为 社会 化 软件 生产 中 一 种 重要 的 生产 模式 和 协同 创新 运动 ， 形 成 了 丰富 的 开源 生态 ， 

正在 产生 越 来 越 大 的 影响 。 在 软件 开源 生产 模式 下 ， 开 源 生 态 的 软件 使 用 者 、 软 件 开发 者 、 开 源 组 织 者 、 开 源 

系统 平台 、 开 源 协 议 、 开 源 研究 者 等 要 素 互 相 营 养 、 相 互 协 同 、 持 续 迭 代 : 软件 使 用 者 自由 下 载 试 用 软件 并 反 

馈 信息 ， 软 件 开发 个 人 或 组 织 可 以 在 开源 许可 条 款 下 查看 、 创新 并 再 分 发 源 代码 ， 开源 组 织 通 过 开源 协议 和 章 

co 程 负责 维护 整个 开源 生态 的 发 展 等 。 软件 开源 是 共享 经 济 在 软件 生产 领域 的 体现 , 与 软件 闭 源 生产 模式 一 起 组 

:三 成 整个 软件 生产 的 生态 大 系统 。 

FT 在 过 去 的 几 十 年 中 ,软件 开源 社会 化 运动 持续 推动 软件 生产 发 展 , 不 断 引领 创新 潮流 。 从 互联 网 早期 时 代 
的 Linux 操作 系统 、MySQL 关系 型 数据 库 管理 系统 ， 到 移动 时 代 的 安 卓 操作 系统 、Web 服务 器 Apache. Bir 
开发 框架 VUE， 软 件 开发 工具 如 Eclipse、vsCode， 项 目 管理 协同 工具 git 等 等 ， 再 到 如 今 引 爆 时 代 的 Python 
语言 和 ChatGPT， 都 是 受益 于 开源 模式 下 的 创新 产物 。 开 源 运 动 形成 了 以 github 为 典型 代表 的 开源 平台 社区 ， 
开源 创新 潮流 已 经 不 仅仅 局 限于 软件 生产 ， 开 始 触 达 硬 件 、 文 档 、 音 乐 等 更 广泛 的 领域 。 在 开源 生产 模式 下 ， 
全 球 范围 内 各 种 专业 知识 技能 和 生产 要 素 密 切 融 合 、 快 速 迭代 ， 从 而 释放 出 创新 的 巨大 潜能 ， 推 动 技术 与 社会 
的 不 断 进步 。 

基于 开源 模式 在 软件 创新 生产 中 的 积极 作用 和 我 国 软件 发 展 相 对 滞后 的 局 面 ， 我 国 自 2009 年 开始 积极 构 

建 和 发 展开 源 生态 系统 。 截 止 到 2022 年 我 国 开发 者 数量 增长 全 球 排名 第 一 ， 根 据 国 内 头 部 开发 者 社区 CSDN 

的 统计 ， 我 国 开发 者 用 户 注册 超 3500 万 ， 其 中 超过 94% 的 开发 者 正在 使 用 开源 ， 超 过 40% 的 开发 者 参与 过 开 

源 项 目的 建设 ， 根 据 开 源 社 区 Gitee 的 统计 ，2021 年 Gitee 新 增 注册 用 户 超过 了 180 万 ， 累 计 开 源 开 发 者 超过 

800 万 ; 根据 Github 2021 年 数据 统计 ， 我 国 开发 者 数量 已 经 增长 至 755 万 ， 全 球 排名 第 二 。2022 年 在 国际 顶 

级 开源 基金 会 中 ,中 国 开源 表现 出 强烈 的 贡献 积极 性 和 参与 热情 ， 在 开源 基础 设施 基金 会 中 , 我 国 董事 会 成 员 

占 比 超过 40%， 在 云 原生 计算 基金 会 中 来 自我 国 的 开源 项 目 超过 20%， 在 Apache 软件 基金 会 中 ,来 自我 国 的 
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活跃 开源 项 目 有 24 个 ， 其 中 14 个 是 顶级 开源 项 目 ， 特 别 是 2021 E, ERA 5 个 开源 项 目 进入 Apache 软 
件 基金 会 孵化 器 ， 这 些 新 项 目 全 部 来 自我 国 。 此 外 ， 越 来 越 多 的 中 国企 业 意识 到 开源 的 重要 性 ， 积 极 参与 到 开 
源 项 目 中 。 一些 互联 网 巨头 公司 ， 如 华为 、 阿 里 巴巴 、 百 度 等 ， 积 极 开源 自己 的 软件 和 技术 ， 并 投资 于 开源 生 
态 系 统 的 发 展 ， 推 动 开源 项 目的 成 长 。 政 府 也 对 开源 发 展 提出 了 要 求 ,，2016 年 12 月 18 日 ,工信部 印发 的 《大 
数据 产业 发 展 规划 (2016-2020 年 ) 》 中 明确 提出 要 “鼓励 开发 者 、 企 业 、 研 究 机 构 积 极 参与 大 数据 开源 项 目 ， 
增强 我 国 在 开源 社区 中 的 影响 力 ” 帆 ，2021 年 3 月 12 日 ， 开 源 首 次 写 入 《中 华人 民 共 和 国 国民 经 济 和 社会 发 
展 第 十 四 个 五 年 规划 和 2035 年 远景 目标 纲要 》 外 ， 明 确 提 出 支持 数字 技术 开源 社区 等 创新 联合 体 发 展 ， 2021 
年 11 月 30 日 ， 工 业 和 信息 化 部 印发 《 “十 四 五 ”软件 和 信息 技术 服务 业 发 展 规划 》， 系 统 布局 “十 四 五 ” 开 
WEA AEE); 2022 年 01 月 12 日 ， 国 务 院 印 发 《4“ 十 四 五 ”数字 经 济 发 展 规划 》， 提 出 支持 具有 自主 核心 技 
术 的 开源 社区 、 开 源 平 台 、 开 源 项 目 发 展 ， 推 动 创新 资源 共 建 共享 ， 促 进 创新 模式 开放 化 演进 内 。 
综 上 所 述 ， 我 国 的 开源 创新 、 开 源 运营 等 正 处 于 加 速 阶段 ， 软 件 开源 生态 系统 得 到 了 较 好 地 发 展 ， 但 作为 
开源 生态 系统 组 成 部 分 之 一 的 软件 开源 研究 相对 较 少 。 
本 文 拟 通过 对 国际 上 软件 开源 领域 研究 的 进行 主题 识别 及 主题 演化 分 析 , 从 而 能 够 了 解 开 源 软 件 生态 的 发 
展 规律 ,为 我 国学 者 开展 中 国情 景 下 的 软件 开源 共享 研究 提供 有 益 的 启示 和 指导 ,从 而 最 终 推 动 我 国 软件 开源 
共享 创新 快速 发 展 ， 同 时 为 国际 上 开源 共享 发 展 贡献 中 国力 量 。 
2 主题 识别 及 演化 相关 研究 
主题 代表 着 文本 中 特定 的 信息 内 容 或 关注 点 , 是 指 文 本 中 的 一 种 概念 或 话题 的 集合 , 可 以 由 一 组 相关 的 词 
汇 或 短语 抽象 表示 ,能 够 帮助 读者 快速 了 解 文 本 的 核心 内 容 ， 从 而 提供 更 好 的 文本 摘要 和 信息 概览 。 主题 识别 
是 一 种 从 给 定 文本 集合 中 发 现 隐 藏 在 其 中 主题 的 文本 挖掘 技术 , 它 通 过 分 析 文 本 的 语义 和 上 下 文 信息 , 推断 出 
文本 中 的 主题 及 相应 的 概率 。 主题 演 化 是 指 在 一 定时 间 范 围 内 , 主题 在 不 同时 间 点 上 的 变化 和 发 展 过 程 。 主 题 
识别 及 演化 分 析 通 过 运用 文献 计量 学 或 自然 语言 处 理 等 方法 , 对 一 个 领域 中 的 主题 进行 识别 和 跟踪 ,并 对 其 发 
展 趋 势 进 行动 态 分 析 和 可 视 化 呈现 ， 其 研究 内 容 通 常 涉及 主题 的 演化 路 径 、 关 键 词 共 现 网 络 的 形成 和 演化 、 领 
域内 核心 作者 和 机 构 等 方面 的 变化 , 以 及 影响 主题 演化 的 因素 和 机 制 等 。 主题 识别 及 演化 分 析 在 多 个 领域 都 有 
应 用 ， 如 与 情 监测 名、 社交 媒体 分 析 上 自 、 医 疗 健康 中、 商业 智能 外 和 政府 决策 外 等 ， 主 题 识别 及 演化 分 析 对 研究 
者 更 加 全 面 地 了 解 不 同 领域 在 不 同时 期 的 研究 进展 和 变化 趋势 有 重要 意义 。 
主题 识别 及 演化 分 析 常 用 方法 技术 的 优 缺 点 如 表 1 所 示 。 文 献计 量 学 方法 通常 基于 词 频 、 共 现 关 系 以 及 
k 引 分 析 识 别 文档 的 主题 0， 是 一 种 简单 易 用 的 主题 识别 方法 ， 有 很 多 学 者 基于 文献 计量 学 方法 进行 主题 识 
别 和 演化 分 析 000203]， 其 中 ， 社 会 网 络 分 析 在 揭示 主题 之 间 的 关系 方面 备 受 青睐 ， 邢 晓 昭 等 上 以 文本 挖掘 和 
社会 网 络 分 析 为 方法 手段 ， 提 出 基于 主题 演化 的 颠覆 性 技术 识别 方法 ，Reza Vahidzadeh 等 05 基 于 社会 网 络 分 
析 探 究 区 域 产 业 共 生 (RIS) 研 究 领域 中 技术 和 非 技术 两 个 方面 的 主要 主题 和 趋势 。 基 于 文献 计量 学 的 方法 进行 
主题 识别 尽管 可 以 挖掘 大 规模 文献 的 主题 ， 但 容易 忽视 文本 信息 中 的 语义 信息 ， 导 致 结果 缺乏 丰富 性 ， 因 此 ， 
越 来 越 多 的 学 者 使 用 基于 机 器 学 习 的 主题 模型 方法 进行 主题 挖掘 和 演化 分 析 0907508， 采 用 机 器 学 习 算法 ， 如 
朴素 贝 叶 斯 、 支 持 向 量 机 等 ， 对 文本 数据 进行 分 类 和 聚 类 分 析 ， 可 以 实现 主题 的 识别 和 演化 的 跟踪 。 在 基于 机 
器 学 习 的 主题 识别 和 演化 分 析 中 , 利用 概率 图 模型 对 文本 数据 进行 主题 建 模 被 广泛 使 用 。 常用 的 概率 图 模型 如 
潜在 语义 分 析 (Latent Semantic Analysis, LSA) 、 潜 在 狄 利克 雷 分 布 (Latent Dirichlet Allocation, LDA) 和 动 
态 主 题 模 型 (Dynamic Topic Model, DTM) 等 将 文本 数据 转化 为 主题 -词语 分 布 的 表示 形式 ， 将 文档 、 主 题 和 
词汇 之 间 的 关系 进行 隐 含 的 建 模 , 通过 学 习 概率 分 布 参 数 来 发 现 文本 数据 中 的 主题 结构 和 演化 模式 , 能 够 挖 气 
出 文本 中 的 潜在 语义 关系 ， 在 主题 识别 和 演化 分 析 中 比 传统 方法 更 有 效 [91。 
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表 1 主题 识别 及 演化 分 析 常 用 方法 比较 


方法 分 类 优点 缺点 

词 频 分 析 ; 

CM" 

传统 的 ”词语 共 现 分 析 ; 1. 相对 简单 直观 ， 易 于 理解 和 解释 ; : S 
主题 识 社会 网 络 分 析 ; 2. 能 够 扬 示 出 文献 之 间 的 引用 关系 和 影 ae 了 文本 内 部 的 语义 信息 ， 只 
口 A a m , AA 国家 之 AN ye N 系 。 . mE g P A ati SS 
别 方 法 “因子 分 析 ; Ws RAPA RRL MMAR: oe owes mene RIS, 
gpg “动态 主题 模型 1. 采用 概率 图 模型 ， 为 每 个 主题 提供 词 1. 需要 大 量 的 训练 数据 来 进行 模 
站 是 的 潜在 语义 分 析 ; 语 的 概率 分 布 ， 揭 示 主 题 内 部 潜在 的 丰 ”型 构建 和 训练 ; 
主题 识 “潜在 狄 利克 雷 分 布 。 富 语义 内 容 ; 2. 在 处 理 大 规模 文本 时 ， 计 算 复 杂 
T 动态 主题 模型 ; 2. 可 以 处 理 大 量 的 数据 ， 更 加 快速 、 准 ” 度 较 高 ; 

聚 类 分 析 确 ;主题 抽取 的 主观 性 大 大 降低 。 


综 上 所 述 , 已 经 有 很 多 学 者 在 软件 开源 领域 进行 了 大 量 的 研究 , 但 是 现 有 的 文献 分 析 存 在 一 些 局 限 性 。 首 
先 , 一 些 研究 只 关注 单一 的 开源 软件 项 目 或 应 用 领域 , 分 析 软 件 开 源 领 域 的 特定 问题 ,而 对 于 整个 软件 开源 研 


究 主 题 的 分 析 尚 不 充分 。 其 次 ， 一 些 研究 综述 采用 传统 的 基于 文献 计量 学 


的 方法 Po， 从 无 监督 学 习 的 主题 建 


模 视 角 对 开源 软件 进行 主题 识别 的 研究 较 少 ，LDA 模型 尚未 在 开源 软件 领域 中 得 到 广泛 应 用 ， 缺 乏 对 主题 演 


化 的 深入 探究 。 此 外 , 个 别 研究 仅 基于 开源 平台 的 源 代码 存储 库 中 的 数据 ; 
以 便 更 好 的 为 开发 人 员 匹 配合 适 的 任务 PJ， 没 有 充分 利用 其 他 数据 来 源 识 


行 分 析 , 识别 开发 人 员 贡 献 的 主题 ， 
别 开 源 领域 的 研究 主题 。 因 此 ， 本 


文昌 在 使 用 LDA 主题 建 模 技 术 ， 对 软件 开源 领域 的 主题 和 演化 进行 深入 天 


究 ， 探 究 软 件 开源 领域 的 发 展 趋势 


和 未 来 方向 。 本 文 的 研究 能 够 为 软件 开源 的 发 展 提供 参考 和 建议 , 在 一 定 程 度 上 促进 开源 共享 领域 的 研究 与 发 
展 ， 并 对 于 其 他 领域 的 主题 分 析 和 演化 研究 提供 借鉴 和 参考 ， 具 有 一 定 的 现实 意义 。 


3 研究 设计 
3. 1 数据 采集 与 获取 
本 文选 择 Web of Science 数据 库 〈 以 下 简称 WOS) 作为 数据 的 来 源 ， 


检索 时 间 为 2023 年 5 月 


1 日 ， 检 


Ó 


索 文 献 的 时 间 范 围 为 2001 年 至 当前 检索 时 间 ， 文 献 类 型 分 别 选择 “Article"”， 以 排除 会 议 、 报 纸 等 文献 。 以 
TS=("open source software" OR "free software" OR "libre software") 作 为 主题 词 进行 检索 ， 初 步 第 选 得 到 论文 
1146 篇 ， 通 过 逐一 阅读 论文 标题 和 摘要 部 分 ， 了 解 论文 主题 ， 排 除 研究 方向 开源 软件 应 用 与 技术 问题 等 与 本 
论文 研究 无 关 的 文献 ， 最 终 得 到 769 篇 文献 的 题 录 信息 ， 题 录 信 息 包括 题目 、 关 键 词 、 关 键 词 扩 展 、 摘 要 、 期 


刊 来 源 、 出 版 年 份 、 作 者 、 机 构 、 国 家 等 信息 。 每 年 的 文献 数量 分 布 如 图 
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图 1 文献 数量 分 布 图 
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OF SYSTEMS AND SOFTWARE) . (INFORMATION SYS 
名 前 十 五 位 的 来 源 期 刊 中 文献 数量 占 比 30.796. 


25 A 


图 2 显示 了 文献 数量 排名 在 前 十 五 位 的 来 源 期 刊 , 可 以 看 出 , 来源 于 《RESEARCH POLICY》、《JOURNAL 


TEMS RESEARCH) 的 文献 数量 相对 较 多 ， 在 排 
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2 主要 来 源 期 刊 


3. 2 数据 预 处 理 


在 进行 主题 识别 和 演化 分 析 之 前 ， 需 要 对 收集 的 文献 数据 进行 预 处 理 ， 以 提高 数据 质量 和 准确 性 。 本 文 提 
取 从 WOS 中 时 出 的 文献 题 录 信 息 中 的 标题 、 关 键 词 、 关 键 词 扩展 、 搞 要 作为 主题 模型 的 语 料 来 源 , 调用 NLTK 
自然 语言 处 理工 具 包 在 进行 分 词 处 理 ， 主 要 包含 以 下 处 理 : 中 特 殊 的 字符 被 排除 在 外 ， 如 数字 、 标 点 符号 等 ; 


@) 将 缩写 还 原 成 完整 形式 ， 以 合并 同一 概念 的 不 同形 式 ， 如 : 


‘OSS” 还 原 为 “Open Source Software”，“PR” 还 原 为 


“Pull Request; (3) 将 单词 转换 为 小 写 形式 , 标记 词性 并 进行 词性 过 滤 , 去 除 形容 词 、 副 词 等 没有 意义 的 单词 ; 
(@ 构 建 停 用 词 表 、 同 义 词 表 和 开源 软件 研究 的 专 有 名 词 词典 ,完成 停 用 词 去 除 、 合 并 同义词 的 操作 ， 并 在 训练 
模型 过 程 中 持续 扩充 停 用 词 表 、 同 义 词 表 和 专 有 名 词 词典 , 不 断 优化 分 词 结果 。@@) 将 单词 进行 词 形 还 原 和 词 干 


化 处 理 。 
3. 3 研究 方法 
本 文采 用 基于 概率 图 模型 的 常用 的 主题 建 模 技 术 LDA 


(Latent Dirichlet Allocation ) 模型 对 软件 开源 的 主 


题 特征 进行 分 析 ， 揭 示 软 件 开源 领域 的 关键 主题 和 研究 热点 。Blei TAPIE 2003 年 提出 了 LDA 主题 建 模 方 


法 ， 通 过 对 文本 中 的 单词 进行 主题 分 布 和 主题 中 单词 分 布 的 


联合 建 模 ， 识 别 文本 中 的 潜在 主题 。LDA 模型 可 


以 将 软件 开源 领域 的 大 量 文 本 数据 进行 主题 建 模 , 识别 出 其 中 的 关键 主题 和 互相 关联 的 词汇 , 挖掘 出 研究 关注 
的 核心 议题 。 它 的 优势 在 于 可 以 从 文本 中 自动 发 现 主 题 , 不 需要 预先 定义 主题 或 手动 标注 样本 。 它 能 通过 对 文 
本 数据 的 统计 分 析 ， 自 动 学 习 主 题 和 文档 之 间 的 关系 。LDA 模型 在 处 理 大 规模 文本 数据 时 非常 有 用 ， 并 且 可 


以 发 现 不 同时 间 阶 段 的 主题 演化 ， 需 要 预先 设 定 主 题 个 数 等 


HEP, LDA 是 一 个 三 层 贝 叶 斯 模型 ， 如 图 3 所 


示 ， 它 用 主题 上 的 概率 分 布 表 示 每 个 文档 ， 其 中 每 个 主题 都 


表示 为 单词 上 的 概率 分 布 。LDA 模型 假设 一 篇 软 


件 开源 研究 文章 的 每 个 词 是 通过 以 一 定 概率 选择 某 个 主题 , 并 从 该 主题 中 以 一 定 概率 选择 某 个 词语 的 过 程 得 到 
的 ， 其 中 文档 的 主题 分 布 和 主题 的 单词 分 布 分 别 取决 于 由 xx 和 有 参数 决定 的 Dirichlet 先 验 分 布 。 


文档 


caa] [s] ea] e a e] a ea 


3 LDA =e 


叶 斯 结构 图 


Dirichlet 分 布 Dirichlet 分 布 


图 4LDA 模型 图 
LDA 模型 现在 已 被 广泛 用 于 发 现 文档 集合 中 的 潜在 主题 ， 其 原理 如 图 4 所 示 。 本 文 将 一 篇 软件 开源 研究 


文献 的 标题 、 关 键 词 、 关 键 词 扩 展 、 摘 要 作为 一 篇 文档 ，LDA 模型 假设 在 M (769) 篇 关于 软件 开源 的 文档 中 ， 
每 篇 文档 中 由 天 个 主题 组 成 ， 每 个 主题 下 的 N AEW nm ”构成 这 篇 文档 ; 每 篇 文档 在 主题 上 服从 多 项 


式 分布 ， 每 个 主题 在 单词 上 服从 多 项 式 分 布 ， 每 篇 文档 的 主题 的 多 项 式 分 布 的 先 验 分 布 是 参数 为 a 的 狄 利克 雷 
分 布 ， 每 个 主题 的 词汇 的 多 项 式 分 布 的 先 验 分 布 是 参数 为 B 的 狄 利克 雷 分 布 。 
基于 以 上 假设 ， 对 于 769 篇 软件 开源 研究 领域 中 的 每 篇 文档 ，LDA 模型 生成 文本 的 基本 流程 是 ;中 从 参 


数 为 a 的 狄 利克 雷 分 布 中 采样 ,随机 生成 第 m 篇 文档 对 应 主题 的 多 项 式 分 布 0 mw OMe Uae m 


随机 生成 第 m 篇 文档 中 第 n 个 单词 的 主题 mn ”; @ 从 参数 为 B 的 犹 利克 雷 分 布 中 采样 ， 随 机 生成 主题 


zo. ”对 应 单词 的 多 项 式 分 布 p 。 ; @ 综 合 主题 2 ”和 主题 2 ”对 应 的 单词 的 分 布 情况 


Q , 生成 单词 w 13 循环 上 述 过程 生 成 一 个 包含 N 个 词语 的 文档 , 最 终生 成 K 个 主题 下 的 M C769) 


篇 文档 。 采 用 Gibbs 采样 方法 进行 参数 估计 ， 就 可 以 训练 出 每 篇 文档 的 主题 分 布 0 。 ;及 其 对 应 的 单词 分 布 


MAD , 


3.4 LDA 参数 确定 

Gensim 是 一 个 用 于 文本 分 析 、 主 题 建 模 和 词 庶 入 等 自然 语言 处 理 任务 的 Python 软件 包 , 本 文 利用 Gensim 
包 训 练 LDA 模型 。 在 训练 LDA 模型 之 前 ， 首 先 需 要 确定 3 个 超 参数 a、B、k ， 超 参数 a 代 表 每 篇 文档 下 主题 
的 狄 利克 雷 分 布 先 验 参数 ， 控 制 文档 -主题 分 布 的 稀疏 性 以 及 每 个 文档 中 主题 的 多 样 性 程度 。a 值 越 小 ， 每 个 
文档 包含 的 主题 越 少 。 B 代 表 每 个 主题 下 词汇 的 狄 利克 雷 分 布 先 验 参数 , 定义 了 每 个 主题 中 词语 的 多 样 性 程度 。 
较 小 的 B 值 会 使 每 个 主题 包含 少数 几 个 高 频 词语 ， 较 大 的 B 值 会 使 每 个 主题 更 均匀 地 包含 名 个 词语 。 由 于 主题 
结果 对 a、B 参 数 的 值 不 是 很 敏感 多 ，a、B 一 般 选取 Gensim 包 中 LDA 模型 的 默认 值 ， 即 使 用 固定 的 对 称 先 验 
Ik, k 代表 最 优 主题 的 数量 。 

对 于 最 优 主题 数 k 的 确定 ， 常 用 的 方法 有 四 种 : 中 根据 困惑 度 确定 P53: 困惑 度 通常 用 于 衡量 主题 模型 模 
型 预测 新 数据 的 准确 性 。 通 常 困惑 度 越 小 ， 模 型 的 预测 性 能 越 好 。@) 根 据 一 致 性 分 数 确定 9: 基于 一 致 性 度 
量 来 评估 主题 的 质量 。 通 过 计算 主题 中 各 个 词 的 一 致 性 得 分 确定 最 优 主题 数目 ,一致 性 分 数 越 高 ， 主 题 模 型 越 
好 。@@ 使 用 文本 聚 类 方法 确定 主题 提取 数目 2 通过 对 文本 进行 聚 类 ， 从 聚 类 结果 中 获取 LDA 主题 模型 的 数 
量 。 这 种 方法 容易 受到 样本 本 身 特 点 和 聚 类 算法 的 影响 ， 并 且 需 要 人 工 干 预 ,往往 通过 多 次 试 错 才能 找到 合适 
的 主题 提取 数目 。@ 根 据 主题 分 布 可 视 化 及 人 工 评估 确定 PI: 通过 可 视 化 来 辅助 确定 主题 数 。 通 常 采用 主题 - 
词汇 分 布 图 来 表示 主题 , 通过 观察 不 同 主题 数目 下 的 图 像 特 征 ,阅读 相关 领域 权威 文献 ， 结 合 研究 目的 和 领域 
知识 来 进行 判断 , 比较 不 同 主题 数量 下 的 主题 质量 、 主题 之 间 的 相关 性 和 可 解释 性 , 选择 一 个 最 优 的 主题 数量 。 

困惑 度 表 示 文 档 d 从 属 的 主题 的 不 确定 性 所， 用 于 评 佑 语言 模型 的 性 能 ， 是 当前 研究 中 确定 主题 数目 最 
受 欢迎 的 方法 ， 因 此 ， 本 文采 用 困惑 度 指标 来 确定 主题 数目 的 大 小 ， 当 困惑 度 达 到 最 小 或 处 于 转折 点 处 时 ， 主 
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题 模型 的 泛 化 能 力 强 ， 此 时 得 到 最 优 主 题 数量 k， 困 惑 度 计算 公式 如 公式 1 所 示 : 


Tal ( ) 
Perplexity(D) = exp{ — 24 = - as 公式 1 
Èa aN d 
pwd =I 4,5, p (w 4 ; lz )p(z Id ) AK 2 


其 中 ，M 是 软件 开源 领域 的 文档 总 数 ，p(wa) 为 文档 d 的 生成 概率 ，N g 为 文档 d 包含 的 单词 总 数 。 


p(wa) 的 计算 方式 为 其 文档 中 每 个 词汇 生成 概率 之 积 ， 如 公式 2 所 示 。 

将 主题 数量 限制 在 2-20 之 间 ， 依 次 计算 各 个 主题 数量 的 困惑 度 ， 绘 制 困惑 度 随 主题 数量 变化 的 折线 图 。 
从 图 5 中 可 以 看 出 ， 当 主题 数量 为 6 时 困惑 度 最 小 ， 用 一 致 性 分 数 进行 验证 ， 图 6 显示 主题 数量 为 3 时 一 致 
性 分 数 达到 第 一 个 转折 点 , 但 此 时 主题 数量 过 少 , 模型 泛 化 能 力 弱 ， 在 主题 数量 为 6 时 达到 第 二 个 转折 点 ， 此 
时 一 致 性 分 数 也 比较 高 ， 因 此 本 文选 定 开源 软件 研究 领域 的 主题 数量 为 6。 
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图 5 主题 数量 -困惑 度 变化 情况 
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6 主题 数量 -一 致 性 分 数 变化 情况 


3.5 LDA 主题 建 模 

设置 主题 数量 为 6 并 训练 LDA 模型 ， 得 到 “主题 - 词 ” 分 布 和 “文档 -主题 ”分 布 两 个 结果 。“ 主 题 - 词 ” 
分 布 表 明 每 个 主题 包含 哪些 单词 及 这 些 单词 在 该 主题 中 的 概率 , 可 以 用 来 研究 文本 中 不 同 主题 之 间 的 关系 、 找 
出 文本 中 特定 主题 的 内 容 以 及 揭示 主题 内 容 的 演化 路 径 。“ 文 档 -主题 ”分 布 表 明 每 篇 文档 包含 哪些 主题 以 及 
这 些 主题 在 该 文档 中 的 权重 ， 主 要 用 于 主题 强度 计算 、 识 别 阶段 性 热点 主题 以 及 判断 主题 演化 路 径 。 

本 文 基于 Sievert 和 Shirlet 等 人 BW 在 2014 年 提出 的 Web 的 主题 可 视 化 方法 ， 利 用 LDAvis 进行 交互 式 可 
视 化 ， 以 更 好 地 理解 和 分 析 LDA 模型 中 的 主题 、 单 词 及 其 权重 分 布 ， 从 整体 的 角度 来 观察 主题 和 主题 以 及 主 
题 和 词语 之 间 的 关系 。 可 视 化 结果 如 图 7 所 示 ， 图 中 6 个 大 小 不 同 的 气泡 代表 六 个 主题 ， 它 的 大 小 与 包含 的 
文档 数量 有 关 ， 表 示 该 主题 在 整个 文档 集中 的 相对 重要 性 。 主 题 之 间 的 距离 反映 了 它们 之 间 的 相似 度 ， 距 离 越 
近 的 主题 具有 更 相似 的 单词 分 布 ， 图 中 各 主题 之 间 交 义 很 少 ， 说 明 分 类 效果 较 好 。 
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图 7 主题 识别 可 视 化 结果 
Figure 7 Topic Recognition Visualization Results 


4 数据 结果 
4.1 主题 归纳 分 析 

根据 LDA 模型 得 出 的 “主题 - 词 ”分 布 对 主题 进行 标识 ， 选 取 每 个 主题 下 概率 最 高 的 前 十 个 词汇 判断 主 
题 内 容 ， 最 终 主 题 标识 的 结果 如 表 2 所 示 。 


表 2LDA 主题 建 模 结果 


Topic! (贡献 动机 )》 Topic2〈 商 业 模式 ) Topic3 〈 开 源 治理 ) 
project 0.038710095 development 0.020549098 project 0.027586445 


motivation 
community 
developer 
contribution 
study 
development 
innovation 


work 


0.037083324 
0.022500135 
0.016605742 
0.016531823 
0.014288876 
0.014029684 
0.013139865 
0.012944275 


governance 
development 
adoption 
base 

study 

model 
network 
ecosystem 


0.012733819 
0.012479639 
0.011333821 
0.010658319 
0.010217006 
0.010209058 
0.009370943 
0.009038342 


0.010772946 


research 


Topic4 〈 协 作 模式 ) Topics〈 开 源 协议 ) Topic6 (企业 参与 ) 


project 
developer 
development 
network 
community 
knowledge 
model 

team 


study 


0.007370888 


impact 


依据 表 2 每 个 主题 下 的 高 概率 单词 


0.04877134 

0.034251563 
0.022790086 
0.019850846 
0.017864436 
0.016069325 
0.013099793 
0.011104287 
0.010424438 
0.009592903 


community 0.020520825 
project 0.015811738 
firm 0.014142942 
model 0.013599659 
innovation 0.013513555 
business 0.008755206 
study 0.008111687 
process 0.008107803 
develop 0.008089474 
表 2 CX) 


effect 


community 
project 

firm 
developer 
study 

design 
model 
development 
research 


analysis 


license 0.03 1450167 
study 0.018310972 
innovation 0.016253594 
process 0.015639516 
firm 0.013896711 
model 0.011127581 
case 0.010097274 
ecosystem 0.009492678 
system 0.009243087 
research 0.009092568 
总 结 归纳 最 符合 


合 当前 主题 下 高 概率 单词 的 主题 名 称 。 


项 目 


、 动 机 、 开 发 者 、 贡 献 


顶尖 软件 开发 人 员 会 免费 为 创建 公 
邮件 问卷 调查 的 方法 系统 地 研究 了 为 什么 人 们 会 参与 开源 软件 项 目 
个 方面 加 ， 学 习 也 是 激励 人 们 参与 OSS 社 
度 探 究 开 源 软件 参与 者 的 动机 ， 提 出 了 一 


具 性 的 高 、 


等 高 频 单 词 与 开发 者 参与 项 目的 动机 看 
动机 主题 是 研究 者 最 早 关 注 的 话题 之 一 ， 早 期 很 多 学 者 针对 Lerner 和 Tirole 提出 的 问题 “为 什么 成 千 上 万 的 
究 。Alexander Hars 和 Shaosong Ou 采用 电子 
, 揭示 了 参与 动机 的 内 在 因 
. von Hippel 和 von Krogh 从 组 织 科 学 的 角 
1“ 私 人 -集体 ”的 创新 激励 模式 B4。Shaul Oreg 和 Oded Nov 根据 工 
. von Krogh 等 在 2012 年 构建 了 一 个 动 


1!、 低 三 个 等 级 将 内 在 动机 和 外 在 动机 进一步 分 成 三 类 


产品 做 出 贡献 ? ”DB0 展 开 丰 


区 的 主要 驱动 力 之 一 


33 


35] 


完 比 较 贴切 ， 被 标注 为 “贡献 动机 ”。 贡 献 


RAY 


0.008712007 


0.036629 133 
0.03 1768467 
0.017995713 
0.015662977 
0.011578429 
0.010776361 
0.009528774 
0.008961064 
0.008455344 


在 主题 1 中 ， 


在 因素 两 


机 -实践 的 理论 框架 , 扩展 了 对 个 人 动机 的 假设 , 将 短期 奖励 之 外 的 长 期 、 有 价值 的 追求 纳入 其 中 BI。Mogqri, M 
等 证 实 了 开发 人 员 参 与 开源 软件 开发 不 仅 存在 非 货 币 激励 ， 还 存在 与 未 来 货币 奖励 相关 的 激励 B71。 


主题 4 中 的 开发 者 、 团 队 、 网 络 、 影 响 等 高 频 词 与 7 
模式 主题 也 是 学 者 较 早 
式 ， 他 提出 以 Linux 为 代表 的 开源 软件 使 
模式 84， 并且 与 大 多 数 商 业 软 件 相 比 ， 开 源 软件 项 目 
之 间 的 协作 互动 产生 了 一 个 不 断 演化 的 的 开发 者 社交 网 络 B91， 当 一 个 开发 人 员 与 项 目 
REINA —A BH N, EARN H 


作 关 系 时 ， 他 更 有 可 


目的 成 功 和 成 长 。 


主题 $ 中 许可 证 、 创 新 、 成 功 等 高 频 词 揭示 了 对 3 
为 “开源 协议 ”。 许 可 订 
响 贡献 者 对 开源 软件 开发 项 目 


究 的 主题 ，Raymond 的 《大 教堂 与 集 市 》 系 统 怕 


开源 软件 


项 目 


的 商业 软件 则 


自由 的 


E 的 选择 对 开源 项 目的 成 功 与 可 持续 发 展 十 分 司 


的 兴趣 和 开发 活动 ， 进 而 影响 开源 项 目 


许可 证 的 选择 以 及 项 目 成 功 的 


开发 者 的 协作 模式 有 关 ， 被 标注 为 “协作 模式 ”。 协 作 
地 解释 了 开源 软 作 
3 了 集 市 的 开发 模式 ， 大 多 数 传统 
的 开发 人 员 以 更 


F 开 发 者 的 协作 模 
采用 大 教 和 的 开发 
[ 作 方 式 组 织 和 贡献 项 目 


， 他 们 


发 起 人 之 前 有 很 强 的 协 
!， 开 发 者 之 间 的 协作 模式 起 着 关键 的 作用 ， 决 定 着 项 


25. 被 标注 


要 ， 许 可 证 选择 与 组 织 赞助 交 叉 作 用 影 
的 成 功 由 。 此 外 ， 开 源 项 目 


的 成 功 还 与 


开发 人 员 的 持续 参与 II8I49、 开 源 软件 社区 的 文化 和 意识 形态 中 146047 等 密切 相关 。 管 理 开 源 软件 开发 中 的 许 
可 证 遵从 性 是 当今 的 一 个 重要 问题 ， 不 遵守 许可 证 协议 会 导致 组 织 声誉 的 损失 哎 ， 可 以 根据 开发 衍生 软件 需 
要 付出 的 努力 选择 许可 证 ， 当 开发 软件 需要 付出 大 量 的 努力 时 ， 较 少 限制 的 许可 证 更 有 利于 项 目的 成 功 外 1。 
目前 比较 流行 的 几 种 开源 许可 证 包括 MIT 许可 证 、GNU 通用 公共 许可 证 (GPL) 、 Apache 许可 证 、BSD YF 
可 证 、Mozilla 公共 许可 证 等 。MIT 许可 证 是 一 种 宽松 的 许可 证 ， 几 乎 没有 限制 ， 允 许 用 户 自由 地 使 用 、 复 制 、 
修改 、 合 并 、 出 版 、 分 发 、 再 许可 和 销售 软件 ，GPL 许可 证 要 求 在 所 有 衍生 作品 中 使 用 相同 的 许可 证 ， 即 如 
果 用 户 使 用 了 GPL 许可 证 下 的 代码 或 项 目 , 则 用 户 的 整个 项 目 也 必须 遵循 GPL 许可 证 ; Apache 许可 证 与 MIT 
许可 证 类 似 ， 但 需要 声明 出 处 、 保 留 版 权 和 贡献 清单 等 要 求 ，BSD 许可 证 也 类 似 于 MIT 许可 证 ， 但 增加 了 需 
要 在 分 发 时 提供 原始 许可 证 和 版 权 声明 等 一 些 其 他 限制 ，Mozilla 公共 许可 证 与 GPL 许可 证 类 似 ,更 适合 于 涉 
及 网 络 浏览 器 和 其 他 公共 网 络 服务 等 方面 的 项 目 。 开源 许 可 证 各 有 不 同 的 特点 和 适用 场景 , 贡献 者 需要 根据 具 
体 需 求 和 项 目的 性 质 选 择 合适 的 开源 许可 证 。 
主题 2 的 高 频 单词 商业 、 模 式 、 公 司 等 符合 开源 软件 商业 模式 的 研究 ， 被 标注 为 “商业 模式 ”。 开 源 软 件 
商业 模式 也 得 到 了 学 者 的 广泛 关注 ， 包 括 选 择 不 同 商业 模式 的 因素 60、 如 何 设计 商业 模式 560 以 及 系统 地 对 商 
业 模 式 的 种 类 进行 总 结 等 61， 商业 模式 的 选择 和 设计 影响 着 开源 项 目的 成 功 。 常 见 的 几 种 商业 模式 有 以 下 几 
Tp: 第 一 种 是 开放 核心 ， 即 软件 核心 代码 部 分 开源 ， 非 核心 部 分 闭 源 ， 对 软件 的 部 分 插件 或 者 运行 时 所 需要 的 
素材 收费 ， 从 而 通过 提供 差异 化 的 商业 产品 来 为 客户 提供 服务 ; 第 二 种 是 支持 和 咨询 服务 收费 ,公司 基于 开源 
软件 提供 技术 支持 、 培 训 和 咨询 服务 , 利用 自己 对 开源 软件 的 专业 知识 和 经 验 ， 为 企业 提供 定制 化 的 支持 和 解 
决 方 案 ， 并 提供 付费 的 服务 合同 ; 第 三 种 是 延迟 开源 模式 ， 即 新 版 本 闭 源 ， 旧 版 本 开源 的 模式 ， 当 公司 研发 出 
更 新 的 商业 版 本 之 后 ， 原 来 的 商业 版 本 就 会 被 开源 出 来 ; 第 四 种 是 双重 许可 模式 ， 公 司 采 用 双重 许可 模式 ， 即 
将 开源 软件 以 开源 许可 证 发 布 ,但 同时 也 提供 商业 许可 证 ,开源 许可 证 使 软件 在 开放 源 代 码 下 免费 使 用 和 修改 ， 
而 商业 许可 证 则 允许 客户 在 某 些 条 件 下 获得 额外 的 权益 和 功能 。 第 五 种 是 捐赠 和 赞助 模式 ， 公 司 通过 接受 捐赠 
和 赞助 来 支持 开源 项 目的 开发 和 维护 ， 他 们 在 开源 社区 中 建立 信誉 和 影响 力 ， 并 通过 向 企业 、 组 织 或 个 人 寻求 
资金 支持 来 确保 项 目的 可 持续 性 。 开 源 与 商业 化 相辅相成 ，Red Hat 作为 一 家 领先 的 开源 技术 公司 ， 通 过 提供 
企业 级 支持 和 服务 以 及 开源 云 计算 、 容 器 化 、 存 储 和 中 间 件 解决 方案 等 已 经 取得 了 巨大 的 成 功 , Red Hat If] Linux 
发 行 版 被 广泛 用 于 企业 级 应 用 ， 因 此 为 客户 提供 技术 支持 非常 重要 ; 此外， 基于 文档 存储 的 NoSQL 数据 库 
MongoDB., 提供 日 志 分 析 和 数据 可 视 化 的 开源 软件 公司 Elastic 以 及 基于 容器 技术 的 开源 平台 Docker 都 是 成 功 
的 开源 商业 公司 。 
主题 3 中 治理 、 模 式 、 网 络 、 生 态 系统 等 高 频 词 贴 合 开源 软件 社区 治理 的 研究 内 容 , 被 标注 为 “开源 治理 ”。 
开源 治理 也 是 开源 领域 的 热门 话题 。 众 所 周知 ， 诸 如 开源 社区 等 虚拟 社区 的 组 织 治 理 方 式 与 传统 组 织 不 同 呈 ]， 
开源 项 目 所 有 者 必须 求助 于 其 他 治理 机 制 ， 而 不 是 那些 向 开发 人 员 付 费 的 公司 所 提供 的 治理 机 制药。Vishal 
Midha 等 55] 提 出 开源 项 目 治 理 的 二 维 分 类 ,， 即 参与 管理 和 责任 管理 , 并 展示 了 两 个 治理 维度 对 开源 软件 维护 结 
果 的 影响 。Saerom Lee 等 59 探 讨 了 将 开发 人 员 分 配 到 组 织 内 多 个 项 目的 有 效 治理 策略 ， 以 促进 协作 软件 开发 
和 简化 协调 。 早 期 关于 治理 的 研究 大 多 聚焦 于 开源 社区 ， 随 着 越 来 越 多 的 公司 参与 开源 ， 学 者 开始 关注 对 企业 
开源 治理 的 研究 671581， 探 究 公 司 如 何在 开源 和 闭 源 之 间 做 出 权衡 印 ! 以 及 如 何 分 配 员 工 参与 开源 的 时 间 [@ 等 。 
主题 6 的 高 频 单词 社区 、 公 司 、 开 发 者 则 体现 了 对 公司 内 部 员工 参与 开源 项 目的 研究 ,被 标注 为 “企业 参 
与 ”。 开 源 软 件 在 过 去 几 十 年 中 得 到 了 广泛 的 应 用 和 发 展 ， 并 吸引 了 许多 企业 参与 其 中 。 企 业 参 与 开源 软件 领 
域 的 活动 能 够 获得 最 新 的 技术 发 展 动态 1， 与 其 他 开发 者 共享 经 验 和 知识 ， 推 动 技术 创新 的， 可 以 减少 开发 
成 本 581， 提 升 其 品牌 知名 度 和 声誉 ， 树 立 技术 领导 力 和 社区 贡献 形象 。 企 业 可 以 通过 提供 与 开源 软件 相关 的 
技术 文 持 和 培训 服务 ， 培 养 一 个 由 同行 生产 者 组 成 的 开源 社区 [区 ， 辟 励 员工 向 开源 项 目 贡 献 代 码 、 功 能 和 修 
复 漏洞 ， 组 织 和 赞助 开源 软件 相关 的 活动 等 来 为 开源 项 目的 发 展 做 出 贡献 1。 
4.2 热点 主题 识别 
主题 强度 反映 在 一 段 时 间 内 一 个 主题 在 文档 集中 的 相对 重要 性 或 突出 程度 ,热点 主题 表现 为 在 文档 集中 频 
繁 出现 的 主题 ， 即 在 特定 时 间 段 内 主题 强度 值 相对 较 高 的 主题 ,主题 强度 越 大 越 有 可 能 被 认为 是 热点 主题 531。 
通过 LDA 主题 建 模 后 得 到 的 文档 -主题 矩阵 可 以 计算 每 一 年 的 主题 强度 ， 文 档 - 主 题 矩阵 中 包含 了 每 一 篇 文档 


= 


202308.00035v1 


chinaXiv 


在 每 一 个 主题 上 的 概率 值 , 将 每 一 个 主题 在 某 一 年 内 所 有 文档 上 的 概率 值 相 加 并 求 平均 ， 就 可 以 得 到 该 主题 在 
该 年 份 上 的 主题 强度 数值 ， 主 题 强度 计算 方式 如 公式 3 所 示 。 


M 
t Za =10 d ,k 
S t cft dk 公式 3 


其 中 M 表示 t 年 份 文档 总 数 ， 如 果 计 算 总 体 主 题 强度 ， 则 M 表示 所 有 文档 总 数 。6uk 表 示 第 d 篇 文档 上 


阔 值 的 主题 即 为 热点 主题 。 具 体 结果 如 图 8 所 示 。 
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主题 


图 8 主题 强度 分 布 图 

可 以 看 出 ， 贡 献 动 机 、 商 业 模式 、 协 作 模式 为 开源 软件 领域 研究 的 热点 主题 。 首 先 ， 开 源 软件 参与 者 的 参 
与 动机 一 直 以 来 都 是 开源 软件 研究 者 感 兴 趣 的 话题 ， 在 开源 运动 中 ， 贡 献 者 根据 自己 的 能 力 、 兴 趣 爱 好 ， 选 择 
感 兴趣 的 项 目 并 为 项 目 做 出 贡献 ， 开 源 软件 的 参与 者 往往 包括 个 人 、 企 业 、 基 金 会 、 政 府 等 唤 ， 其 中 ， 个 体 
的 参与 最 受 研究 者 关注 ， 其 次 是 企业 。 参 与 开源 软件 开发 的 个 体 不 仅 包 括 自由 职业 者 ， 还 包括 企业 的 员工 ， 他 
们 出 于 不 同 的 动机 对 软件 项 目 做 出 贡献 。 其 次 ， 在 开源 软件 开发 社区 中 ,， 由 于 不 同 的 贡献 者 位 于 全 球 各 地 ， 了 且 
开发 过 程 中 涉及 到 复杂 的 技术 、 知 识 和 沟通 问题 ， 因 此 ， 对 开发 人 员 协 作 模 式 研究 的 热度 也 相对 较 高 。 此 外 ， 
学 术 界 对 于 开源 软件 商业 模式 的 研究 也 是 一 个 相对 活跃 的 领域 , 并 且 开源 软件 在 企业 和 社会 之 间 普 及 的 过 程 中 ， 
越 来 越 多 的 学 者 开始 关注 开源 软件 如 何 实现 商业 化 运营 , 由 此 也 带动 了 学 术 界 对 于 开源 社区 治理 、 公 司 员工 参 
与 开源 的 模式 的 研究 。 相 比 而 言 ， 学 者 对 于 开源 软件 项 目 许可 证 选择 的 研究 相对 较 少 。 

国内 外 学 术 界 对 开源 软件 研究 热度 的 不 断 增 强 ， 促 进 了 学 科 交 叉 融 合 和 知识 共享 。 但 从 图 9 可 以 看 出 ， 
中 国 对 于 开源 共享 的 研究 与 国外 仍 有 较 大 差距 , 要 想 为 中 国 开源 共享 的 发 展 提供 理论 支撑 和 实践 经 验 , 理论 研 
究 还 有 待 加 强 。 
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4.3 主题 演化 分 析 
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F 源 软件 的 演化 过 程 中 , 主题 强度 的 变化 对 于 了 解 主题 的 热度 和 重要 性 
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9 开源 软件 研究 的 国家 分 布 


具有 重要 意义 。 主题 强度 演化 可 以 


帮助 我 们 揭示 开源 软件 社区 中 不 同 主题 的 变化 趋势 及 影响 力 。 在 每 一 年 内 根据 公式 3 计算 当年 每 一 个 主题 的 


主题 强度 ， 根 据 计生 


得 到 的 主题 强度 数据 ， 


难以 看 出 明显 的 趋势 , 本文 对 原始 数据 做 了 三 期 移动 平均 处 理 ， 
主题 强度 的 演化 分 为 上 升 型 、 下 降 型 和 稳定 型 5， 得 出 的 演化 结果 如 图 9- 医 
从 图 10 可 以 看 出 ， 商 业 模 式 、 开 源 治理 、 


软件 开源 领域 , 对 于 软件 开源 的 商业 模式 、 


关注 和 研究 。 由 于 开源 软件 已 经 在 许多 行业 和 领域 中 得 到 广泛 应 用 , 学 者 对 如 何在 开源 软件 项 目 
究 兴 趣 增加 ， 因 此 开源 软件 在 商业 化 方面 的 有 
商业 创新 具有 重要 意义 。 


值 、 构 建 可 持续 的 商业 模式 等 问题 的 有 
于 帮助 企业 更 好 地 利用 开源 软件 、 促 ; 


11 所 示 。 


的 问题 。 近 年 来 在 


开源 治理 问题 以 及 公司 选择 员工 参与 开源 项 目 


的 下 


男 一 方面 ,对 于 开源 软件 社区 治理 


般 一 个 大 型 的 开源 社区 有 以 下 五 种 角色 91; 
一 般 拥有 项 目 事务 的 决策 权 。 


IF BEER 
个 开源 社区 ， 开 源 社区 包含 了 一 套 完整 的 项 目 
一 体 的 系统 管理 。 开 源 软 件 社区 的 治理 是 保证 开源 软件 项 目 顺利 进行 的 关键 因素 , 学 者 通过 万 
构 、 决 策 过 程 、 资 源 分 配 等 方面 的 问题 ,试图 提出 更 好 的 开源 治 型 


(2) 开源 维护 者 (Maintainer) : 2 


究 也 越 来 越 受 关注 。 一 个 优秀 的 开源 项 目 
流程 ， 它 包括 开放 源 代码 、 社 区 写作 流程 、 


管理 


完 逐 渐 增 多 ， 这 些 看 


进行 主题 强度 的 演化 分 析 。 由 于 各 个 主题 强度 变化 的 波动 性 较 强 ， 
减少 数据 波动 带 来 的 影响 ,并 依照 先前 学 者 将 


企业 参与 主题 有 波动 上 升 的 趋势 。 商 业 模 式 主题 、 开 源 治理 主 
题 、 企 业 参 与 主题 分 别 研究 软件 开源 的 商业 模式 、 开 源 治理 问题 以 及 公司 员工 参与 开源 项 目 日 


完 引 起 了 广泛 的 
中 创造 商业 价 
究 对 


， 更 重要 的 是 维护 一 


项 目 质 量 管理 为 


(1) 开源 领导 者 (Leader) : 领导 者 承担 了 带领 


目 事 务 的 管理 权 ， 开 源 维护 者 是 项 目 中 的 3 


要 管理 者 ， 会 帮助 开源 领导 者 分 担 项 目 管理 事务 。 


di (Committer) : 提交 者 负责 对 项 目 


贡献 者 通过 多 
贡献 者 可 以 通过 提交 PR. 
E 广 等 方式 ， 为 开源 项 目 
般 会 围绕 项 目 进行 技术 讨 
陷 、 提 出 建议 。 虽然 目 


提交 项 目 
交 者 是 可 以 直接 提交 代码 到 主干 的 人 ， 在 项 目 维 护 的 模块 中 发 挥 重要 作用 。 
! 方 式 为 项 目 做 贡献 (如 创建 问题 、 打 开 讨 论 、 
提交 Issues、 解 决 Issues、 帮 助 项 目 


贡献 自己 的 一 份 力量 。 


成 果 “〈 一 般 指 源 代 码 提 交 ) ， 并 参与 项 目 
(4) 开源 贡献 者 


完 社 区 的 组 织 结 


模式 和 方法 ， 促 进 开 源 社区 可 持续 发 展 。 一 
项 目 发 展 的 责任 ， 
伍 护 者 承担 了 项 目 日 常 维护 工作 ， 一 般 拥 有 项 


(3) 开源 提交 


事务 的 处 理 ， 开 源 提 


(Contributor) : 


回答 讨论 、 提 议 拉 取 请 求 、 提 交 拉 取 请 求 等 ) ， 


写 文 档 、 邮 件 反 馈 、 社 


又 分 享 、 


(5) 开源 使 用 者 (User〉: 使 用 者 是 开源 项 目 
论 和 意见 反馈 ,开源 使 用 者 作为 社区 成 员 , 他 们 最 有 价值 的 部 分 是 提出 需求 、 报 告 缺 
前 中 国 开源 社区 数量 很 多 , 但 开源 社区 的 运营 和 治理 能 力 大 部 分 还 处 于 比较 初级 的 阶段 ， 


社区 答疑 、 宣 传 
的 使 用 者 ， 一 


BX 


Tb 


此 外 , 公司 员工 参与 开源 项 目的 相关 而 


形式 上 具备 国外 开源 社区 的 治理 架构 , 但 还 没有 真正 发 挥 出 开源 开放 和 协作 的 效应 , 社区 贡献 主要 还 是 来 源 于 
项 目的 发 起 方 ， 开 源 社区 的 治理 问题 有 待 进一步 研究 。 
究 也 逐渐 增多 , 越 来 越 多 的 公司 意识 到 参与 开源 项 目 


可 以 为 他 们 带 


202308.00035v1 


chinaXiv 


来 多 方面 的 好 处 ,包括 技术 增长 、 声 誉 提升 、 人 才 招 聘 等 
源 项 目 ， 如 何 管理 员工 的 开源 参与 以 实现 最 大 化 的 利益 。 


10 上 升 型 主 
从 图 11 可 以 看 出 , 贡献 动机 主题 和 协作 模式 主题 研 
研究 贡献 者 参与 开源 项 目的 动机 和 贡献 者 彼此 之 间 的 协作 模式 。 在 软件 开源 领域 ， 早 期 的 


。 研 究 人 员 开始 探索 公司 如 何 选择 合适 的 员工 参与 开 


题 强度 曲线 
究 强度 相对 下 降 ， 贡 献 动机 主题 和 协作 模式 主题 分 别 
究 主 要 集中 在 分 析 


贡献 者 参与 开源 项 目的 动机 和 贡献 者 之 间 的 协作 模式 , 这些 研究 可 以 帮助 我 们 更 好 地 理解 开源 软件 社区 的 运作 


机 制 ， 促 进 开源 软件 的 发 展 和 持续 改进 。 随 着 开源 软件 社 
源 软件 的 商业 化 、 治 理 问题 、 安 全 性 等 更 加 深入 的 话题 。 
的 协作 模式 的 研究 相对 减少 ， 主 题 强度 下 降 。 此 外 ， 随 着 


区 的 不 断 发 展 和 成 熟 ， 越 来 越 多 的 研究 开始 涉及 到 开 
因此 ， 对 于 贡献 者 参与 开源 项 目的 动机 和 贡献 者 之 间 
开源 软件 的 普及 ， 越 来 越 多 的 人 开始 参与 到 开源 软件 


社区 中 来 ， 使 得 开源 软件 社区 的 规模 不 断 扩 大 ， 贡 献 者 之 间 的 互动 和 合作 变 得 更 加 复杂 和 多 样 化 。 因 此 ， 简 单 


地 对 贡献 者 参与 开源 项 目的 动机 和 贡献 者 之 间 的 协作 模式 ; 


各 种 问题 ， 需 要 更 加 综合 和 深入 的 研究 方法 和 视角 。 


$X 0.25 


1 
ES 0.2 
AY 045 


究 已 经 不 能 很 好 地 解决 开源 软件 社区 面临 的 


fTt 


图 11 下 降 型 主题 强度 曲线 


图 12 显示 开源 协议 研究 强度 处 于 一 个 相对 稳定 的 状 
及 到 项 目 成 功 因素 的 探讨 。 作 为 开源 软件 研究 领域 的 基础 
究 总 体 上 


态 。 开 源 协议 主题 主要 研究 开源 许可 证 的 选择 ， 也 涉 
问题 , 开源 软件 许可 证 选择 和 开源 项 目 成 功 因素 的 研 


直 保 持 稳定 的 状态 。 开 发 者 在 免费 获得 开源 软件 源 代码 的 同时 , 仍 需 遵守 开源 协议 , 不 可 随意 使 用 。 


为 了 使 开源 软件 更 合理 、 规 范 的 使 用 ， 保 护 开 源 软件 的 知识 产权 ，OSI 已 经 认证 通过 了 80 多 个 开源 软件 许可 


的 平衡 , 对 于 项 目的 法 律 合 规 性 和 商业 可 持续 性 具有 重要 
解 如 何 提高 项 目的 质量 、 吸 引 贡 献 者 、 增 加 用 户 参 与 等 方 


证 ,用 法 律 的 手段 为 开源 软件 的 使 有 用、 修改、 复制 、 分 发 进行 规范 。 开 源 软件 许可 证 的 选择 涉及 到 权利 和 义务 


影响 。 项 目 成 功 因 素 的 研究 可 以 帮助 贡献 者 和 组 织 了 
面 的 问题 。 学 者 对 开源 许可 证 的 选择 和 项 目 成 功 因素 


.00035V1 


24 Q 
JUO 


f^ f£ 
3 


02 


l 


2 


XIV: 


L 


je 


的 研究 ， 可 以 为 贡献 者 、 组 织 和 学 术 界 提供 有 益 的 指导 和 深入 的 理论 洞察 ， 促 进 软件 开源 的 可 持续 发 展 。 
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图 12 稳定 型 主题 强度 曲线 


5 结论 及 建议 
5.1 结论 

软件 开源 生产 模式 对 软件 创新 产业 格局 产生 了 深远 的 影响 , 加 速 了 知识 创新 的 过 程 。 软 件 开 源 领 域 的 研究 
主要 履 盖 了 开源 生态 六 个 方面 的 主题 ， 从 整体 研究 的 主题 强度 上 看 ， 贡 献 动 机 、 商 业 模式 和 协作 模式 三 个 主题 
的 强度 超过 主题 强度 的 阔 值 ， 研 究 强度 高 ， 属 于 软件 开源 研究 领域 的 热点 主题 。 从 主题 强度 演化 趋势 上 看 ， 软 
件 开源 研究 与 开源 生态 的 演化 具有 一 致 性 , 即 呈 现 从 最 初 简单 的 个 人 维度 关注 开源 动机 的 自发 性 和 自治 性 , 3E 
渐 疝 复杂 组 织 维度 的 企业 参与 和 政府 宏观 治理 演变 的 发 展 规律 。 针 对 国外 领先 的 开源 社区 如 github, 研究 者 对 
于 开源 商业 模式 、 开 源 治理 、 企 业 参 与 的 研究 处 于 波动 上 升 的 趋势 ， 研 究 热 度 增加 ; 对 于 开源 协议 主题 的 研究 
始终 处 于 相对 稳定 状态 ,而 对 研究 贡献 者 贡献 动机 和 贡献 者 协作 模式 方面 的 研究 热度 绝对 值 稳定 , 但 相对 比重 
下 降 。 
5.2 建议 

软件 开源 研究 主题 发 展演 化 规律 某 种 程度 上 代表 了 软件 开源 运动 所 关注 焦点 问题 的 变化 规律 。 目 前 我 国正 
虽 是 软件 生产 大 国 , 但 在 基础 应 用 软件 和 专业 生产 软件 等 领域 仍 存在 明显 短 板 ,构建 以 社会 协同 为 特点 的 软件 
创新 开源 生态 是 必 不 可 少 的 发 展 路 径 。 良好 的 开源 生态 需要 生态 中 各 个 参与 者 共同 努力 , 建议 学 者 们 针对 中 国 
情景 开展 研究 ， 为 构建 开源 创新 生态 服务 中 国 软件 产业 做 出 贡献 。 
个 人 层面 ,建议 开展 中 国情 景 下 的 开源 贡献 者 参与 动机 研究 , 研究 并 设计 能 够 有 效 鼓 励 个 人 积极 在 开源 社 
区 贡献 的 开源 创新 机 制 及 文化 氛围 ; 企业 层面 , 研究 企业 参与 开源 的 动机 及 机 制 设计 ， 为 企业 开源 的 战略 决策 
提供 理论 指导 ; 平台 及 组 织 层 面 , 研究 设计 适合 中 国情 景 的 开源 社区 治理 方案 等 。 同 时 ,研究 基于 开源 社区 的 
创新 创业 案例 和 模式 ， 鼓 励 基于 开源 的 创业 ， 为 全 球 提供 更 多 中 国 实践 与 智慧 。 


XT. 
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Topic Mining and Evolution Analysis of Software Open Source Research 
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Abstract : [Purpose/Significance] Software open-source is an important production organization and collaborative 
innovation movement in socialized software production. By identifying and analyzing the themes and evolution of 
software open-source related research at home and abroad, this study explores the phased hotspots and trend changes 
in the field of software open-source research, and provides research direction for scholars with the main purpose of 
promoting further optimization and development of software open-source innovation in China. [Method/Process] This 
paper uses the software open source literature retrieved from the Web of Science database from 2001 to May 10, 2023 
as the corpus, uses the Perplexity index to determine the number of topics, trains the LDA topic recognition model to 
obtain the topic word distribution and document topic distribution, identifies topics according to the topic word 
distribution, calculates the topic intensity according to the document topic distribution, and then identifies hot topics 
and summarizes the evolution path. [Result/Conclusion] The results of topic identification indicate that there are six 
important themes in the field of software open source research, namely contribution motivation, business model, open 
source governance, collaboration model, open source protocol, and enterprise participation; From the perspective of 
theme evolution, software open-source has shown relatively high research enthusiasm in business models, open source 
governance, and enterprise participation themes in recent years. The research trend of open source protocols is 
relatively stable, and although the research enthusiasm for contribution motivation and collaboration models is 
relatively declining, it has always maintained a high level of attention from beginning to end. The research on 
software open source presents a development pattern from the individual dimension of spontaneous and autonomous 
attention to open source motivation to the organizational dimension of enterprise and government participation. It is 
recommended that scholars pay attention to various thematic studies on the open source ecosystem in the Chinese 
context, in order to provide theoretical support for the healthy development of the open source ecosystem in China. 
Keywords : open source software topic identification topic evolution LDA model 


